尽管人类从事面对面对话的人类同时在口头和口头上都可以交流,但与文本音频和统一综合的方法和统一综合的方法和共同言论3D手势运动是一个新的和新兴的领域。这些技术对更类似人类,高效,表现力和ro骨的合成通信具有巨大的希望,但是目前由于缺乏适当的大数据集而阻碍了人们的阻碍,因为现有方法经过所有组成方式的并行数据培训。受到学生教师方法的启发,我们通过简单地合成其他培训材料,为数据短缺提出了直接的解决方案。具体来说,我们使用在大型数据集上训练的单模式合成模型来创建多模式(但合成)并行训练数据,然后在该材料上预先培训联合合成模型。在适当的情况下,我们提出了一种新的综合体系结构,该体系结构为现场的状态方法添加了更好,更可控制的韵律建模。我们的结果证实,对大量合成数据进行预训练可改善多模型模型合成的语音和运动的质量,当对合成数据进行预训练时,提议的架构会产生进一步的好处。
主要关键词
![arxiv:2404.19622v1 [cs.hc] 2024年4月30日PDF文件第1页](/bimg/b/bb33f5cefe3f95b2996240f640178493c1b579eb.webp)
![arxiv:2404.19622v1 [cs.hc] 2024年4月30日PDF文件第2页](/bimg/2/2cde5156180fc4f8ac3c0a04b036563d66a4a659.webp)
![arxiv:2404.19622v1 [cs.hc] 2024年4月30日PDF文件第3页](/bimg/8/867c2c687f1c47dae625d3971bba2dbd8148b15a.webp)
![arxiv:2404.19622v1 [cs.hc] 2024年4月30日PDF文件第4页](/bimg/9/96a9722f3c61e7ddc1cb43f9815ed96d18fdea0b.webp)
![arxiv:2404.19622v1 [cs.hc] 2024年4月30日PDF文件第5页](/bimg/2/2aa1fc14ebbce040aff0c7b3d8e3769306d70abc.webp)
